统计学入门(1)——描述统计与推断统计
该图片由Lorenzo Cafar在Pixabay上发布
统计是从数据中获得信息的一种方法。在日常生活中,我们会碰到形形色色的数据,如果不进行统计,数据很快就能占满我们大脑里的所有空间,让我们不堪重负。在网络购物过程中,我们往往会“货比三家”后做出是否购买的决定。为提高销量,电商平台(例如,阿里、京东、当当等)与商家也会通过各种指标,比如销售量、评论数、好评度(如下图所示)来吸引顾客、引导顾客消费。相比于浏览每一条商品评论,我们更倾向于根据评论数、好评度、差评数量等数字进行快速判断与选择。
统计学是一门依托概率论对各种数据进行收集、分类、概括、整理、分析以及解释的应用性学科。根据使用目的与方法,统计学大致可分为两个分支:描述统计学(Descriptive Statistics)和推断统计学(Inferential Statistics)。描述统计学是以便利化和信息化的方式对数据进行整理、汇总、显示的一种方法。描述统计学的一种形式是图表法,用可视化的方式让统计工作者较为容易地获取有用的信息 (凯勒,2019, p. 1)。
通俗来说,描述统计学是用一系列方法与工具对现象的一种刻画,得到的结果是可以统计的量,如数字、类别等。举个例子,目前NBA季后赛正在火热进行中,NBA相关网站每天都在更新比赛的统计数据。如图1所示,对于快船和太阳的比赛,腾讯体育NBA板块上列出了各球员的上场时间、得分、篮板、助攻等多项数据。
图1 快船和太阳的比赛统计数据
推断统计学是利用样本数据信息对总体特征做出推断的一系列方法 (凯勒,2019, p. 3)。推断统计与描述统计的区别在于后者通过前者从样本数据中获取信息,再利用该信息对总体做出推断。
举个例子,一般大学里面会有多个食堂,怎么才能知道最受女生欢迎的食堂呢?一般来说,有两种方案:1)按描述统计学的思路,获取所有女生的就餐数据,然后按餐厅分组汇总后比较大小。然而,由于隐私保护等客观限制,有时候无法或者很难获取所有女生的就餐数据,此时可用第二种方案:2)按推断统计学的思路,在图书馆门口随机询问多位女生的就餐情况,并按餐厅分组汇总,然后通过汇总得出的信息推断所有女生的就餐情况的一个估计值。